Telegram Group & Telegram Channel
Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/26
Create:
Last Update:

Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/knowledge_accumulator/26

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

Telegram announces Search Filters

With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.

Knowledge Accumulator from ua


Telegram Knowledge Accumulator
FROM USA